<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
  <channel>
    <title>太素阁 - 硬件软件</title>
    <link>https://bbs.deeplexicon.tech/forum.php?mod=forumdisplay&amp;fid=5</link>
    <description>Latest 20 threads of 硬件软件</description>
    <copyright>Copyright(C) 太素阁</copyright>
    <generator>Discuz! Board by Comsenz Inc.</generator>
    <lastBuildDate>Sun, 03 May 2026 15:02:41 +0000</lastBuildDate>
    <ttl>60</ttl>
    <image>
      <url>https://bbs.deeplexicon.tech/static/image/common/logo_88_31.gif</url>
      <title>太素阁</title>
      <link>https://bbs.deeplexicon.tech/</link>
    </image>
    <item>
      <title>关于Deepseek翻译质量的测试（Q4/Q8 R1/V3）</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=61</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-6-28 15:32 编辑 [/i]

[attach]132[/attach]前文：[url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=58&amp;extra=page%3D1]https://bbs.deeplexicon.tech/for ... d=58&amp;extra=page%3D1[/url]

经过半个月的测试，Deepseek 新V3 旧V3和R1的测试结果如下：


新V3最好，并且翻译的速度也非常快；
旧V3速度快，但是还是不如新的版本；
R1过度解读和拓展，表现实际上最差。

我把Q4和Q8的版本，与3个模型一共测试了六份，分别是1到3.1
1和1.1是新V3
2和2.1是旧V3
3和3.1是R1

分别由公司全职翻译和兼职翻译盲测，事前并不知道哪个稿对应哪个稿
注意我们定稿的分数是82分（满分100，81为标准质量，82为较好）

全职翻译测试如下：
[attach]129[/attach]


兼职翻译测试如下：
[attach]130[/attach]


总的来说，综合推荐用V3的Q8版本，是目前中文为主的翻译最优解，如果是英文还是用GPT好一些。
具体的文章内容评价可以下载附件查看，绿色是较好，红色是有问题。

]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Sat, 28 Jun 2025 07:30:13 +0000</pubDate>
    </item>
    <item>
      <title>[本地部署][内存推理][总结]关于768G内存配置的主机Deepseek测试</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=59</link>
      <description><![CDATA[[size=3]经过半个月的测试，目前得出以下数据和结论[b](注无任何特殊优化)[/b]：[/size]
[size=3]
[/size]
[attach]127[/attach][size=3]
[/size]
[size=3]
[/size]
[size=3]在Linux环境运行llama.cpp，[/size]
[size=3]R1和V3的Q4版本，M2硬盘和机械硬盘都在4.9-5.1之间，速度差距小于[color=#ff0000]3%[/color]。[/size]
[size=3]R1和V3的Q8版本，M2硬盘和机械硬盘都在3.9-4.1之间，速度差距小于[color=#ff0000]4%[/color]。[/size]
[size=3]
[/size][size=3]除了初次读写更快之外，M2硬盘并没有比机械硬盘有更明显的优势。[/size]
[size=3]
[/size][size=3]在Windows环境运行Ollama，
[/size][size=3]R1-Q4：速度2.7[/size]
[size=3]V3-Q4：速度2.28
[/size]
[size=3]R1-Q8：速度1.9[/size]
[size=3]V3-Q8：速度1.85[/size]

[size=3]R1从Q4到Q8，速度下降了[color=#ff0000]30%[/color][/size]
[size=3]V3从Q4到Q8，速度下降了[color=#ff0000]20%[/color][/size]
[size=3]
[/size][size=3]由于没有测试超过500字的长文，因此在这种速度下，即使Windows优化之后提升20%，也达不到每秒4token的要求。[color=#212529][font=&amp;quot;]在每秒输出低于2的情况下如果报错将浪费大量时间。并且由于设置出错（目前只确定是因为 设置host留存或上下文限制 其中一个出错），Ollama频繁报错，非常影响测试。Windows内运行虚拟机必然有损耗，加上Windows本身要占用一些内存，实际上768G对于Q8是非常紧张的。在Windows下用Ollama的场景是装了显卡运行不是很大（比如70b）的AI模型，速度和便捷度是相当不错的，但是如果要达到671b或者更高，就只能规规矩矩堆显存，走内存推理路径不合适。[/font][/color][/size]
[size=3]
[/size]
[b][size=4]全部总结：[/size][/b]
[size=3]测试选择题[font=&amp;quot;][url=https://zhuanlan.zhihu.com/p/628884068]https://zhuanlan.zhihu.com/p/628884068[/url][/font] 中，R1所有版本全部回答正确，V3所有新旧版本共只全对一次，在“相敬如宾”和“鸡犬不宁”上屡次翻错。即使是最新的V3版本也会出错。[/size]
[size=3]
[/size][size=3]V3的执行速度更快，但是输出缺乏思考描述，并且总的平均速度并没有比R1快。（这个可能是因为内存的运算速度限制）V3在翻译上更加符合要求(R1会自己改格式)，但是质量目前还没测评出来。总的理解上，无论是Q4还是Q8版本还是不如R1。[/size]
[size=3]
[/size][size=3]R1的逻辑思考和对问题事物的分析更好一些，但不会特别明显，Q8版本明显要比Q4容易出现幻觉和联想，但从回复完整度上，R1的Q8版本是最完整的甚至有些过长。[/size]
[size=3]
[/size][size=3]使用内存CPU版本推理，如果采用Linux的llama.cpp部署，速度是可以接受的，即使是长文预计速度下降50%也有每秒2-3token的速度，是可以接受的。出错、幻觉、自问自答的概率低于5%。[/size]
[size=3]
[/size][size=3]从本地部署的角度，Q4到Q8只是损失了20%的速度，但是全方位会有提升，是值得的。并且在优化后实际上速度可以提升10-20%，也就是速度持平。所以如果采用内存CPU方案，能够加到768G，那么还是一定要用Q8版本。一万元不到的费用（多买的DDR5内存），可以使用Q8，是值得的。Q8的回答各方面和线上官网的16或更高版本已经很接近，当然质量还有一段距离。如果不需要保留提升空间，用单路512G内存的配置方案运行Q4也是可以的。[/size]
[size=3]
[/size][size=3]不是特别复杂的问题或者语言类问题，建议直接用V3的Q8版本，这样可以节约一点输出的时间（有时候R1的思考内容比输出内容都长）。如果要保证较稳定的质量，或者经常要思考比对有逻辑的问题，使用R1的Q8版本然后严格限制提示词是比较好的选择。[/size]
[size=3]
[/size][size=4][b]具体分析：[/b][/size]
[size=3]
[/size][size=3][b]R1总结[/b][/size]
[size=3][color=#212529][font=&amp;quot;]运行过程中出现幻觉和无关联想。并且有一些回答没有思考过程。[/font][/color][color=#212529][font=&amp;quot;]会有无关联想和联系前文，翻译没有严格按照要求。Q4在翻译小语种时速度明显下降，Q8则不明显。[/font][/color]
[/size]
[size=3]Q8[color=rgb(33, 37, 41)][font=&amp;quot;]都出现了同样的幻觉和联系无关前文，以及翻译不按照要求。在不加限制和特殊符号的情况下，AI会自己发散。词的创作都不合格。某种程度上，Q8的过度发挥和思考反而让有些回答不如Q4。但Q4的问题就是会陷入循环和自问自答（Q8也有但很少）。[/font][/color][/size]
[size=3][color=#212529][font=&amp;quot;]
Q4和Q8都有思考过程，但是翻译出来的结果还是有问题，最明显的是排版问题。原文是整段但是翻译出来擅自加了破折号等各种符号[/font][/color][color=#212529][font=&amp;quot;]。[/font][/color][color=#212529][font=&amp;quot;]诗词没有按照要求。[/font][/color]
[color=#212529][font=&amp;quot;]
[/font][/color][/size][size=3][b]V3总结[/b][/size]
[size=3][color=#212529][font=&amp;quot;][font=&amp;quot;]V3的启动和回复速度都很快，但是有些部分过于简略。如果从难题的回答情况来看，可能又适中。但是缺乏思考过程是一个比较不方便的，可以用来做直接启动的辅助工作比如预翻译。[/font][/font][/color][/size]
[size=3][color=#212529][font=&amp;quot;]
[/font][/color][color=#212529][font=&amp;quot;]V3的优点是执行更快，但是并不代表输出的速度会更快。中间经常出现卡顿的情况。翻译出现了明显的理解错误（修改译文理解成修改原文）。[/font][/color][/size]
[size=3][color=#212529][font=&amp;quot;][font=&amp;quot;]
[/font][/font][/color][font=Helvetica Neue, Helvetica, PingFang SC, Hiragino Sans GB, Microsoft YaHei UI, Microsoft YaHei, 微软雅黑, Arial, sans-serif, Chinese Quote, -apple-system, BlinkMacSystemFont, Segoe UI, Roboto][color=#212529]但是！判断题中旧的Q8和所有V3都错的地方，新版Q8会有可能回答正确（两次对了一次）。翻译方面，有时候Q8会按照要求正常翻译，有时候会自己加格式分段，目前不清楚原因。[/color][/font][color=#212529][font=&amp;quot;]Q8版本比Q4的联想和幻觉要更严重。另外这次问判断题机械硬盘的回答错了。同时这次测试出现了自问自答的情况。[/font][/color][/size]

[size=3][color=#212529]更详细的数据和内容请点击：[/color][/size]
[url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=58&amp;extra=&amp;page=1]https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=58&amp;extra=&amp;page=1[/url]
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Tue, 20 May 2025 12:49:30 +0000</pubDate>
    </item>
    <item>
      <title>[测试][R1][V3][完结]双路768G配置-两种硬盘的Q4/Q8测速</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=58</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-5-20 19:18 编辑 [/i]

[b]现在测一下双路CPU下768G对于Q4和Q8两种硬盘的不同速度，验证下硬盘对于这种CPU推理的配置是否会有很大的影响。[/b]

[b]之前比较笼统的测试，在Q4大概是5-6，在Q8大概是4-4.7，为了更加精准，我们需要列清楚条件和记录结果。[/b]

测试工具：Llama.cpp (Linux) 和Ollama(Windows)
测试模型：Deepseek R1-Q4/R8, V3-Q4/Q8 V3(0324版)-Q4/Q8

测试硬盘：
两种硬盘分别是机械盘和M.2固态硬盘。

品牌分别是

[b]西部数据[/b]
16T HC550
相关介绍：
[url=https://post.smzdm.com/p/a90zd7g0/]https://post.smzdm.com/p/a90zd7g0/[/url]

[url=https://post.smzdm.com/p/az6p6nxo/]https://post.smzdm.com/p/az6p6nxo/[/url]


[b]和梵想[/b]
S770M
为了综合测试性能，我让官网的Deepseek自己出20道题，然后加上之前考GPT的9道选择题，和一道单独的诗+词创作，总共30题。
[url=https://zhuanlan.zhihu.com/p/628884068][b]https://zhuanlan.zhihu.com/p/628884068[/b][/url]

模型下载地址：
llama.cpp：
R1：[url]https://www.modelscope.cn/models/unsloth/DeepSeek-R1-GGUF/files[/url]
V3：[url]https://www.modelscope.cn/models/unsloth/DeepSeek-V3-0324-GGUF/files[/url]

Ollama：
R1：[url]https://ollama.com/library/deepseek-r1/tags[/url]
V3：[url]https://ollama.com/library/deepseek-v3/tags[/url] 

最后看测试速度如何。
为了方便分辨，蓝色字为提问，橙色字为思考，黑色字为回答：

[quote][color=#0000ff]我现在要准备测试Deepseek的表现，请为我准备二十个问题。问题需要包含以下领域：数学、物理、逻辑、社交、创业、情感、诗词、历史。问题字数长度在二十到二百之间。问题要用中文提问，并且需要能够考察对方的知识库、逻辑思考以及表达能力。[/color][/quote]
[align=left][color=#ff8c00]好的，用户让我准备二十个问题，涵盖数学、物理、逻辑、社交、创业、情感、诗词、历史这些领域，每个问题要能考察知识库、逻辑思考和表达能力。首先，我需要确定每个领域的问题数量分配，尽量均衡。不过八个领域，二十个问题，所以大概每个领域2-3个问题。[/color][/align]
[align=left][color=#ff8c00]接下来，数学方面，可能需要一些需要计算或理论的问题，比如概率或者几何。物理的话，经典问题如相对论、量子力学的基础，或者日常现象的解释。逻辑题可以设计一些悖论或者推理题。社交方面可能涉及沟通技巧或情景分析。创业问题需要考察商业思维和问题解决能力。情感类的问题可能涉及人际关系处理或情绪识别。诗词需要记忆和理解，比如名句出处或赏析。历史则要具体事件或人物的影响分析。[/color][/align]
[align=left][color=#ff8c00]要注意问题不能太简单，要能测试深度思考。比如数学题不只是计算，还要解释背后的原理。物理题可能需要联系实际应用。逻辑题要避免常见题目，但也不能太冷门。社交情景题要真实，让回答者展示应对策略。创业问题要结合实际挑战，比如市场定位或团队管理。情感问题可能需要处理矛盾或提供建议。诗词和历史题要准确，同时要求分析能力。[/color][/align]
[align=left][color=#ff8c00]还要考虑问题的多样性，避免重复。比如数学和逻辑可能有交叉，但需区分侧重点。每个问题字数控制在20到200字之间，确保清晰明了。同时，问题要用中文，符合用户要求。需要检查每个问题是否确实能考察知识、逻辑和表达，比如是否开放性问题，是否有多种解答可能。[/color][/align]
[align=left][color=#ff8c00]可能需要先列出每个领域的可能问题，再筛选和调整数量。例如，数学：解释贝叶斯定理，证明根号2无理数。物理：相对论时间膨胀，量子叠加态。逻辑：理发师悖论，三段论例子。社交：同事意见冲突，拒绝请求。创业：新产品市场验证，股权分配。情感：朋友失业安慰，平衡工作家庭。诗词：李白杜甫风格对比，名句赏析。历史：明朝灭亡主因，丝绸之路影响。[/color][/align]
[align=left][color=#ff8c00]然后检查是否覆盖所有领域，问题是否具有挑战性，是否鼓励深入回答。可能需要调整问题顺序，确保各领域分布均匀。最后，确保问题表述准确，没有歧义，并且符合字数限制。[/color][/align]

[align=left][b]数学[/b][/align][align=left]1.请解释贝叶斯定理的核心思想，并举例说明它在现实决策中的应用场景（如医疗诊断）。[/align][align=left]2.如何用反证法证明√2是无理数？请完整推演并说明该方法在数学证明中的普遍价值。[/align][align=left][b]物理[/b]
3. 假设你乘坐接近光速的飞船离开地球，如何向初中生解释“你的时间流逝会比地球慢”这个现象？
4. 量子力学中的“观测者效应”是否意味着意识影响物理系统？请从哥本哈根诠释角度分析。[/align][align=left][b]逻辑[/b]
5. 罗素理发师悖论宣称“只给不自己刮脸的人刮脸”，这个悖论如何动摇集合论基础？请用编程中的循环逻辑类比说明。
6. 请构造一个包含大前提/小前提/结论的三段论案例，并指出其是否违反充足理由律。[/align][align=left][b]社交[/b]
7. 团队讨论时两位同事激烈争执且都引用你的观点佐证，此时如何回应既保持中立又推动进程？
8. 需要拒绝上级的不合理请求时，怎样运用“三明治沟通法”结构化表达？请举例说明。[/align][align=left][b]创业[/b]
9. 新产品验证阶段，如何设计最小可行性实验（MVP）来区分真实需求与用户礼貌性好评？
10. 初创公司三个创始人股权应如何分配？请用数学模型量化技术、资金、资源投入的不同权重。[/align][align=left][b]情感[/b]
11. 朋友因失业陷入自我否定，如何用“认知行为疗法”框架帮助他重建信心？分步骤说明。
12. 长期异地恋中，除了日常沟通外有哪些心理学方法可维持情感联结？请列举3个具体策略。[/align][align=left][b]诗词[/b]
13. 对比李白《将进酒》与杜甫《登高》，分析两者在意象选择与情感表达上的核心差异。
14. “昨夜西风凋碧树，独上高楼，望尽天涯路”这三重境界说，如何体现王国维的人生哲学？[/align][align=left][b]历史[/b]
15. 从财政税收角度分析明朝灭亡的必然性，对比张居正改革与雍正摊丁入亩的长期效果。
16. 丝绸之路如何促成佛教中国化？请结合鸠摩罗什译经与敦煌壁画演变具体说明。[/align][align=left][b]综合挑战题[/b]
17. 用数学归纳法解释“温水煮青蛙”理论的逻辑缺陷，并延伸到现代人的认知盲区分析。
18. 设计物理实验验证“薛定谔的猫”思想实验，需包含对照组和可观测指标。
19. 王阳明“知行合一”理念对当代创业者有何启示？结合心学理论与精益创业方法论论述。
20. 如果苏轼穿越到现代遭遇职场PUA，根据他的诗词性格推断其应对方式，需引用作品佐证。[/align]



[b]而在翻译方面，我们测试一下三种语言，英文、法语、阿拉伯语。[/b]

【嗯，用户之前已经询问过如何在Ubuntu下运行GGUF模型，现在他们提到自己装的是双系统，有一个A盘是exFAT格式，用来存储模型和软件。现在用户想知道在Ubuntu下如何用-m参数指定这个A盘的位置。

首先，我需要确认用户的需求。他们可能已经将模型文件存放在这个exFAT格式的硬盘上，不想复制到Ubuntu系统的内部存储，而是直接挂载后访问。关键点在于如何在Ubuntu中正确挂载exFAT格式的硬盘，并获取正确的路径来使用-m参数。

接下来，我需要回忆exFAT在Ubuntu下的支持情况。Ubuntu默认可能不安装exFAT的支持，需要安装exfat-fuse和exfat-utils包。用户可能需要先安装这些软件包才能挂载exFAT硬盘。

然后，用户需要知道如何挂载硬盘。通常，exFAT硬盘在插入后会被自动挂载到/media/用户名/磁盘标签的路径下。但如果是双系统的情况，可能需要手动挂载，特别是如果硬盘没有自动挂载的话。用户可能需要使用mount命令，或者修改/etc/fstab文件实现自动挂载。

另外，用户可能需要确认硬盘的设备标识符，比如/dev/sda1这样的路径，使用lsblk或者sudo fdisk -l来查看。挂载时需要指定正确的设备路径和挂载点。

挂载完成后，用户需要确定模型的路径，例如/mnt/A_disk/models/xxx.gguf，然后在运行llama.cpp时使用-m参数指定这个路径。】


【[font=宋体]《顶果钦哲饶色达瓦之自传》中记载：[/font]”[font=宋体]堪钦托嘎如意宝身语意一切所行皆如理如法，严守戒律，膳时不语，诵经止语，稍有闲时则阅览群书、著书立说、讲经说法，不积微财，袈裟褴褛，处居简陋。[/font]”[font=宋体]法王如意宝也说：[/font]”[font=宋体]自我初见上师老人家之始，上师老人家戒律极其清净，凡所行事皆以持戒为准，（我）依照行菩提心二地的特性，故认为上师老人家定是二地菩萨。[/font]”[font=宋体]佐钦堪钦阿沃拉贡仁波切亦如是赞叹：[/font]”[font=宋体]释教律藏戒学极清净。[/font]”[font=宋体]但凡正士，无论教派，不分老幼，皆称大德高僧应如巴特尔堪钦托嘎如意宝般持戒清净、道德高尚。】[/font]


[align=left]【The Assignee acknowledges COOK’s exclusiveownership on the assigned intellectual and industrial property rightsand therefore undertakes the obligation toadopt the appropriate measuresto this end. Within said measures, the Assignee shallrefrain from acting in anymanner which could adversely affect the Company's interests and in thisregard expressly accepts that it will not, file or register, directly and/or indirectly,any industrial and intellectual property right that might be considered identical orsimilar to the ones contained in Annex I. Additionally, the Assignee will be obliged toinform the Company as soon as possible of any evidence of infringement over saidindustrial and intellectual property rights that it may, at any time, appreciate.】[/align]
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Tue, 06 May 2025 06:24:52 +0000</pubDate>
    </item>
    <item>
      <title>[Deepseek]关于CPU推理模式的速度测试与分析[R1/V3 Q4/Q8]</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=57</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-4-29 13:45 编辑 [/i]

这段时间下载了4个版本，简单测试了一下，得出速度如下：

配置：
[url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=18]双路768G电脑[/url]

系统：
Ubuntu 22.04 LTS

软件：
Llama.cpp

测试类目：逻辑、物理、数学、诗歌创作、小语种翻译（200中文字）

Q4：
R1 普通6       难题4.4-4.7
V3 普通6+     难题4.7

Q8：
R1 综合 4.3
V3 综合 4.5，英语翻译6

从速度上和实际表现上，Q4的启动时间约为25分钟，Q8启动时间约为40分钟。

主要瓶颈有两个，硬盘写入内存的速度，内存本身运行的速度，这两个是硬条件，除了更换更高速的，通过优化来大幅提高不太。综合网上的优化提升，大致可以提升10~20%。也就是可以提升到5。

如果是用2000-3200的内存DDR4，内存频率下降约一半，速度大概就是2-3，这与其他网友的测试结果一致。

硬盘的速度反而影响不大，只是写入的速度慢一些，但是差几分钟区别并不大。

从回复语言和内容上，R1的Q8是明显比Q4要高一级的，无论是诗歌、物理、哲学、宇宙，多领域多行业的思考，Q8都要强一些。但是V3的不是特别明显，可能是因为我不会小语种。

V3的Q8版本翻译英语速度依然很快，但是由于两个Q8都要占用超过700G内存，所以普通单路512是没办法用的，这点要注意。

如果要作为生产工具或者高级助手，我的建议是Q8，Q4版本可以用但是略差一些。再往下1.5或者70B那些完全不建议，差距太大，与其这样还不如直接用元宝之类的。
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Tue, 29 Apr 2025 01:10:20 +0000</pubDate>
    </item>
    <item>
      <title>[教程]新手超详细AI部署教程-持续更新</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=53</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-4-25 16:34 编辑 [/i]

这个教程主要是给有兴趣但是不是IT专业的老哥们，如果你已经了解过或者懂代码命令行，可以直接跳过。因为文章会有些啰嗦。

[url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=22]https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=22[/url]

结合我之前的软件部署日志，会比较详细说明。



整个过程一共分为五大部分：
1、系统安装和更新
2、科学上网
3、Llama.cpp安装编译
4、AI下载和运行
5、工作流搭建
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Thu, 17 Apr 2025 00:28:05 +0000</pubDate>
    </item>
    <item>
      <title>[汇总]AI模型管理工具及教程-持续更新</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=50</link>
      <description><![CDATA[目前比较多用的是ollama和llama.cpp


有一位老哥自己做了一个叫OneInfer：[url=https://github.com/derekwin/OneInfer]https://github.com/derekwin/OneInfer[/url]
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Mon, 14 Apr 2025 08:29:05 +0000</pubDate>
    </item>
    <item>
      <title>[RAG]RAG相关教程汇总</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=49</link>
      <description><![CDATA[
ragflow知识库搭建


[url]https://www.bilibili.com/video/BV1CBfPYzEVE/?spm_id_from=333.1007.tianma.1-1-1.click&amp;vd_source=8c602c5a80e2f31b181f11b528137ed4[/url]

]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Sun, 13 Apr 2025 13:44:27 +0000</pubDate>
    </item>
    <item>
      <title>[汇总]Deepseek大模型相关教程记录</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=46</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-4-13 21:37 编辑 [/i]

Deepseek大模型全参数微调训练实践
[url=https://www.bilibili.com/video/BV1dvXCYpEtD/?spm_id_from=333.1007.tianma.2-3-6.click&amp;vd_source=8c602c5a80e2f31b181f11b528137ed4]https://www.bilibili.com/video/B ... 31b181f11b528137ed4[/url]


DeepSeek本地RAG知识库(18):数据结构化和清洗
[align=left][url=https://www.bilibili.com/video/BV1dQRaYfEuy/?spm_id_from=333.1007.tianma.1-1-1.click&amp;vd_source=8c602c5a80e2f31b181f11b528137ed4]https://www.bilibili.com/video/BV1dQRaYfEuy/?spm_id_from=333.1007.tianma.1-1-1.click&amp;vd_source=8c602c5a80e2f31b181f11b528137ed4[/url][/align]



]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Sun, 13 Apr 2025 13:33:16 +0000</pubDate>
    </item>
    <item>
      <title>[汇总]本地化部署DeepSeek-R1 CPU架构</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=43</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-4-13 21:13 编辑 [/i]

由于系统有所不同，所以做一个汇总。

[url=https://cloud-atlas.readthedocs.io/zh-cn/latest/machine_learning/deepseek/deploy_deepseek-r1_locally_cpu_arch.html]https://cloud-atlas.readthedocs. ... cally_cpu_arch.html[/url]


新手教程：[url=https://zhuanlan.zhihu.com/p/24560784106]https://zhuanlan.zhihu.com/p/24560784106[/url]


教程：[url]https://www.cnblogs.com/horizondeveloper/p/18748654[/url]
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Sun, 13 Apr 2025 13:06:11 +0000</pubDate>
    </item>
    <item>
      <title>[AI工具]导航页汇总-持续更新</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=39</link>
      <description><![CDATA[[url]https://www.aigcroad.com/[/url]


[url]https://www.ai001.com/[/url]

貌似网站没更新证书


]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Fri, 11 Apr 2025 02:25:14 +0000</pubDate>
    </item>
    <item>
      <title>[Digital Spaceport]750美金搭建AI本地服务器[翻译中]</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=34</link>
      <description><![CDATA[作者：[url=https://digitalspaceport.com/local-ai-home-server-build-at-mid-range-750-price/]Digital Spaceport[/url]

[attach]86[/attach]

MID RANGE Ai SERVER
PRICE CATEGORY: $750
VRAM: 24
PRICE/GB/VRAM: $30.42
REVIEW VIDEO: TBD
GPU ALTERNATIVES:

[table]
[tr][td]ITEM[/td][td]DESC[/td][td]QTY[/td][td]PRICE ($)[/td][td]SUBTOTAL ($)[/td][td]Link[/td][/tr]
[tr][td]CHASSIS[/td][td]HP Z440[/td][td]1[/td][td]100[/td][td]100[/td][td][url=https://geni.us/HP-Z440]https://geni.us/HP-Z440[/url][/td][/tr]
[tr][td]RAM[/td][td]32DDR4 RAM (Aim for 32GB Total, 2x 16GB sticks)[/td][td]2[/td][td]15[/td][td]30[/td][td][url=https://geni.us/DDR4-RAM-ECC-2400]https://geni.us/DDR4-RAM-ECC-2400[/url][/td][/tr]
[tr][td]MOBO[/td][td][i]included[/i][/td][td][/td][td][/td][td][/td][td][/td][/tr]
[tr][td]CPU[/td][td][i]included[/i][/td][td][/td][td][/td][td][/td][td][/td][/tr]
[tr][td]CPU COOLER[/td][td][i]included[/i][/td][td][/td][td][/td][td][/td][td][/td][/tr]
[tr][td]GPU[/td][td]3060 12GB[/td][td]2[/td][td]250[/td][td]500[/td][td][url=https://geni.us/3060_GPU_12GB]https://geni.us/3060_GPU_12GB[/url][/td][/tr]
[tr][td]PSU[/td][td][i]included[/i][/td][td][/td][td][/td][td][/td][td][/td][/tr]
[tr][td]NVMe/SSD[/td][td]Samsung 870 EVO 2TB[/td][td]1[/td][td]100[/td][td]100[/td][td][url=https://geni.us/EVO-870-2TB]https://geni.us/EVO-870-2TB[/url][/td][/tr]
[tr][td]ACCY[/td][td][i]na[/i][/td][td][/td][td][/td][td][/td][td][/td][/tr]
[tr][td][b]TOTAL[/b][/td][td][/td][td][/td][td][/td][td][b]730[/b][/td][td][/td][/tr]
[/table][b]Review Video[/b]TBD
[b]$750 Local Ai Server Tips and Tricks[/b][align=left]The 750w PSU is needed but you can usually see this in pictures if the chassis is open, but may be a good thing to ask a seller as well.[/align][align=left]You can use E5 CPU’s on them, but you are warned it can be frustrating[/align][align=left]DO NOT get in a situation you need to reflash the bios if you can. I forget all the details of what I did but mine basically was dead after an update. Maybe as the seller its BIOS version number?[/align]You can use 6-to-8 pin adapters.
[align=left]The 750w PSU supports 2x 6-pins on separate runs.[/align][b]Local LLM Performance Benchmarks[/b]


]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Wed, 09 Apr 2025 12:01:55 +0000</pubDate>
    </item>
    <item>
      <title>Deepseek本地化部署的总结[保持更新]</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=28</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-4-1 14:27 编辑 [/i]

两个多月的学习和参考，对本地化部署有一些心得，现在记录下来。
[attach]77[/attach]
首先对于本地化部署，[b]一定要先想清楚使用场景[/b]，因为本地化部署有几个非常明显的分界线：单双路、ddr、操作系统。这三个选择会有很多种结果。

单路：对CPU要求高，差一点的U带不了16条内存。

ddr：4和5速度是有明显差距的，而且每个频率的速度也有差距，价格幅度差距很大。而且大主板有明确写支持多少频率的内存，[b]买便宜的组合是没有任何升级空间的[/b]。

操作系统：[b]Windows无论用什么虚拟机，性能一定会有损耗[/b]，而且在中低端机里表现特别明显（比如4降到2.4），要用极限速度必须用KTransformer框架，那就只能用Linux(个人选择Ubuntu 22.04)。如果想用Windows能搞点别的，那就只能接受ollama的速度，一般这个速度不会很快。

如果要追求速度，首先[b]显卡最低是3080的20G[/b]，更差的不建议用。虽然功耗不低，但是性价比来说3080是最合适了，有条件建议3090或者4090，注意显卡内存必须大于等于20G，否则没意义。

[b]内存必须在700G以上的区间才可以跑q8[/b]（接近原版精度），也就是说基本这个主板必须要16通道，当然你愿意用2000一根的超大容量内存放在12通道上也行。通常是16条48G内存。

并且，上下文的关联长度对速度有直接影响，便宜的机子U和内存是带不动长文的，中端（3-6万）这个区间不上KT框架也很勉强，所以不要想着直接搞论文或者写长篇小说，能搞定这种的保底要20万，不如直接用API和云端。

场景对应以下几种模式：

个人用，文字类，非IT领域人士：单路+ddr4+Windows，[b]速度2-3[/b]，俗称洋垃圾组合，7000以内可以搞定，狠一点4000多也能凑出来；
[hr]
个人用，技术类，非IT领域人士：单路+ddr4+Windows，[b]速度2-3[/b]，要好一点的CPU，这个综合略贵，但是1万以内可以搞定；
[hr]

个人用，技术类，IT领域人士：双路+ddr4/5+Linux，[b]速度3-9[/b]，显卡可选，综合大概12000-15000，加显卡要单独加5000；
[hr]

个人用，测试研究用：双路英特尔+ddr5+Linux+3080以上的20G显卡，[b]速度4-15[/b]，综合3万。
[hr]
团队用，文字类/简单技术类：双路+ddr4/5+Linux，综合2.5万左右，[b]4-6[/b]，不需要加显卡，因为KT框架没办法并行，除非可以接受排队提问。
[hr]
团队用，技术类：多台2.5万的机子并用，不用单独买一台厉害的机子，因为高并发必须要求显存大，动辄几百G显存成本没有低过20万的。也可以考虑直接买多台Mac Studio 512G内存跑q4，测试速度是可观的高于10。
[hr]

注意单双路和操作系统是不可逆的选择，所以一定要想清楚，不管Windows用什么wsl wsl2 VM啥的，都不会持平Ubuntu下llama.cpp的运行速度。所以有一个门槛就是2.5万，要装一台有同时多软件并行能力还能保证稳定速度的机子最低要2.2-2.5万。

企业用的话，所有能买新的都建议买新的，不要图二手，出问题重新搞一台的时间超乎想象。我基本全新的双路价格组装就是2.5万左右。单路用8470q es+超微16通道的X13dei+768G内存+3080差不多也是这个数，可能要便宜点。以16通道的主板为基底设计配置，显卡选择3080、3090、4090、5090，必须要20G以上。

目前记录到2025年4月1日，如果有新的会编辑或者下面跟帖。
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Tue, 01 Apr 2025 03:40:20 +0000</pubDate>
    </item>
    <item>
      <title>AI一体机该如何选择？</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=27</link>
      <description><![CDATA[[size=3]      自Deepseek爆火至今已经两个多月，AI一体机从2024年的不愠不火到现在密集发布。但是价格的高昂让很多人持观望态度。让我们了解一下，简单分析该如何选择。[/size]
[attach]71[/attach]

[size=3]      之前一体机的定位，主要是进行AI运算的包含本地部署模型的机器或服务器。但是在Deepseek之后，通常我们会把能够正常运行Deepseek 671b FP8或FP16精度的机器叫做AI一体机。因为Deepseek是目前唯一一个发布了完全体的大模型，所以评价标准以该满血版为准。[/size]
[size=3]      要跑DS满血版，通常的机器成本要在150万左右，成本主要集中在显卡上。虽然可以用KTransformer框架用10万以内的成本跑FP8精度，但是首先只能1-2人用，其次这个速度是很低的（10-15token/s）。通常买一体机并发至少要保证几十甚至上百人用，而且同时速度不能太慢。所以选一体机一定要问清楚是[b]能正常运行哪个精度的671b模型[/b]。商家说别的都不用管，那些标准很多都是模棱两可的，但是FP8和FP16是非常苛刻的，跑不了就一点都跑不了。[/size]
[attach]72[/attach]

[size=3]      其次，在能够运行的情况下，要了解清楚是不是附带部署和其他软件服务。光买回来一个很强的机子就只是一个聊天工具，最多给你搞个PPT什么画图修改，根本不能发挥AI的潜力。最起码要有三个服务：[b]知识库、插件与环境配置[/b][/size][b]、工作流[/b][size=3]。[/size]
[size=3]      装大模型是很容易的，但是附带的知识库，插件和参数配置还有基于前两者结合大模型的工作流，一般企业要花比较长时间琢磨整合，厂商如果不在这上面下功夫，基本就是卖组装机。甚至可以说，一体机很大一部分的溢价来源于这个软件服务。如果厂商不能根据客户要求准备软件，那么机子直接打六折都嫌贵。[/size]
[size=3]     比如[/size][url=https://www.toutiao.com/w/1826992520447178/?share_did=MS4wLjACAAAAGTvKpMwbdCqxgHQFT9sSnO3cUjq2FQRVE8NolKExlbfT6pmcw8gNegYORAlVj3GA&amp;category_new=text_inner_flow&amp;app=news_article&amp;share_uid=MS4wLjABAAAAbKiHCOWtyfStXZ2N3KM9gGmrGT94yynhfVqj28WPq-g&amp;timestamp=1742454435&amp;share_token=af519abf-7762-4cec-9817-bdd3c237987c&amp;source=m_redirect&amp;wid=1743131972029]这个老哥[/url][size=3]，他的经验就是一体机部署至少需要网络架构师、系统工程师、算法工程师三组人马协同。配合稍微差点都容易出问题。不要把一体机当成网吧电脑来买，这两个差着十万八千里。[/size]
[size=3]    附参考文章：[/size][url=https://mp.weixin.qq.com/s/wQryPrkEintMblLixH9_Cg]硬仗！各厂家DeepSeek一体机大盘点[/url]

[size=3]    Deepseek分析，FP8或FP16考虑并发至少需要1TB以上GPU集群，昇腾或者H系列芯片。实际上中小企业上一体机的需求可以说很低，直接买个简单的低速Q4或者Q8精度的内存机足够。并发多看着是好，但是实际你真正用到AI的就一线的老哥，管理者很多根本没时间琢磨这个东西。[/size]
[size=3]    [/size][size=3]个人、[/size][size=3]创业团队建议直接买CPU内存方案的服务器部署，成本不会超过7万，可以看我的[/size][url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=18]链接[/url][size=3]。如果还是觉得小贵，直接用API或者云服务。[/size]
[size=3]    中小型企业，建议混搭，买可以流畅跑QWEN 32B多并发的机子，搭配云/本地服务器，用QWEN快速出方案，用Deepseek审阅修正，有条件就上多几台，共用数据库/知识库。当然如果觉得配置麻烦，直接买苹果最新的Mac Studio 512G版本最好，用学生优惠买港版只需要6.8万港币，直接买也只要7.6万港币。苹果可以确定至少跑671b Q4精度，[/size][url=https://www.bilibili.com/video/BV1icQ8YLEss/]B站测评[/url][size=3]，直接跑是9token/s，用MLX工具跑是15token/s，这个速度实际上已经足够了。[/size]
[attach]73[/attach]

[size=3]    中型以上企业，不管是转型还是AI提速整合，都最少要配几名甚至几组工程师专门服务一体机的落地。而且之后要有专门的软硬件维护开发小组。这个成本是不低的。[/size]
[size=3]    所以选择一体机，首先要看自己行业与AI联系的紧密度如何，是不是能够确实的降本增效，如果是以线下实体业务为主的，买AI一体机很多时候就是写写方案做个企业微信回答工具，这样就不划算了。[/size]

]]></description>In      <category>硬件软件</category>
      <author>太素小编</author>
      <pubDate>Fri, 28 Mar 2025 04:08:20 +0000</pubDate>
    </item>
    <item>
      <title>[INTEL][双路768G][软件篇] Deepseek671b 个人部署记录</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=22</link>
      <description><![CDATA[[url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=18]https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=18[/url]

上一篇已经写完硬件安装，现在开始AI部署。

首先装完WIN11 专业工作站版，发现硬盘占用超大，原因是休眠的机制是把内存写进硬盘达到快速启动，因为我们768G内存太大，所以硬盘顶不住。
[url=https://zhuanlan.zhihu.com/p/656558986]https://zhuanlan.zhihu.com/p/656558986[/url]


用管理员权限打开CMD，然后powercfg -h off 解决。

插满电源再测试一次。

[attach]59[/attach]


5.3W，应该是平均就这个数了。
功耗看了一下，平均大概是307-340W左右。

找到主板CPU盖子，在电脑开机界面左下角找到BMC的IP位置，在浏览器登陆，然后输出账号admin和默认密码。
[url=https://blog.csdn.net/GreapFruit_J/article/details/135684863]https://blog.csdn.net/GreapFruit_J/article/details/135684863[/url]


这里可以查看数据和修改设置，正常来说风扇不会停，如果要维持风扇长时间高速运转可以新设立一个风扇管理方案。

目前2T只有1.81T可以用，我的准备是WIN11分配600G，UBUNTU300G，AI900G。然后再补一个硬盘2T装虚拟机UBUNTU和AI。AI区硬盘用exFAT格式。一共测试以下几个AI：deepseek671b q4，gwen32b ，gemma 3 27B

[url=https://zhuanlan.zhihu.com/p/29797829035]https://zhuanlan.zhihu.com/p/29797829035[/url]


安装ollama 和 llama.cpp还有ktransformer （买了显卡再用）。]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Sun, 23 Mar 2025 15:43:15 +0000</pubDate>
    </item>
    <item>
      <title>[本地部署][Q4量化][18TPS]苹果最新M3 Ultra 512GB本地部署测试</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=21</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-3-18 17:32 编辑 [/i]

目前看M3 Ultra 512G作为不用自己搭建的品牌机而言，性价比要比其他的高很多。


[b]671b Q4量化版[/b]，借由苹果自己的MLX和deepseek R1的MOE模型，可以跑到[b]18token/s[/b]，这个成绩相当不错。但是长上下文恢复正常，还是只有[b]6TPS[/b].

附上国内外的测评报告：
[url=https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/deepseek_r1_671b_q4_m3_ultra_512gb_with_mlx/]https://www.reddit.com/r/LocalLL ... tra_512gb_with_mlx/[/url]

[attach]44[/attach][attach]45[/attach]


[url=https://www.bilibili.com/video/BV1icQ8YLEss/]https://www.bilibili.com/video/BV1icQ8YLEss/[/url]

[attach]47[/attach]



目前苹果M3 512G 2T版本，是7.7W人民币或者7.6万港币，有条件的建议从香港买了带回来，可以赚一点差价。
[attach]49[/attach][attach]48[/attach]

MLX是什么？[b]MLX[/b]是一个适用于苹果芯片的机器学习框架。
可参考[url=https://blog.csdn.net/Gloamirror/article/details/135038859]https://blog.csdn.net/Gloamirror/article/details/135038859[/url]

代码位置：[url=https://gitcode.com/gh_mirrors/ml/mlx?utm_source=csdn_github_accelerator]https://gitcode.com/gh_mirrors/m ... _github_accelerator[/url]


]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Tue, 18 Mar 2025 08:23:51 +0000</pubDate>
    </item>
    <item>
      <title>[INTEL][双路768G][硬件篇] Deepseek671b 个人部署记录</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=18</link>
      <description><![CDATA[[更新：已完结]
AI软件部署请移步 [url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=22]https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=22[/url]

关于机子测试软件和操作请看[url=https://www.zhihu.com/zvideo/1832364233746153473]https://www.zhihu.com/zvideo/1832364233746153473[/url]

测试图：

[attach]62[/attach]
[attach]63[/attach]



做一个简单的记录，顺便复盘下这段时间的各种波折。

从25年的2月15日开始，购买CPU，两颗Q30G，一共1600元，来自[b]Cathy[/b]大佬的魔改版

CPU评测可以看：[url=https://cyberbus.net/post/354?scrollToComments=true]https://cyberbus.net/post/354?scrollToComments=true[/url]

注意老哥是用的金钱豹R系列，我建议用M98，双路散热还是要猛点。
[attach]30[/attach]


然后2月19号买了技嘉MS73-HB1，这个HB1和HB0基本没有差距，除了一个网卡，可以外接，不是追求完美不用买HB0，来自[b]淘宝：上海三剑客6199[/b]
这家店是专业的，我掉了零件都能认出来位置。

注意CPU位置上的盖子要留着，进IPMI管理系统要用到上面的密码。
[attach]31[/attach]


先买了两条48G DDR5 5600MHz的SK内存条，一共是1700.来自[b]淘宝：深圳服务器内存条批发[/b]
[attach]32[/attach]


根据CPU买了金钱豹的M98散热器，这玩意是真的大，注意如果买MS MZ系列要看好4677阵脚散热器。一共是573元，来自淘宝：赛格电子实体店
这店真是让人捉急，两个散热器就给一套钩子，叫补货还忘记补，白等一天。真是服了。
[attach]33[/attach]


还有硬盘，这个当时买错了买的不是服务器的SSD固态，不过也能用，梵想的S770M最新款，2TB，968元
[attach]39[/attach]


巨龙电源2000W，考虑还要加装显卡测试，所以买大一点的，1999的套装咸鱼大概是350-400，不过要看矿到什么程度，我这个就很矿了都是灰，不过还能用。有条件还是建议一手，毕竟电源出问题了比较麻烦，我可能一两个月之后再换新的。
[attach]40[/attach]



大佬测试之后，虽然CPU被顺丰搞的掉了一个点，但是能够点亮。为了让大佬帮忙改BIOS用上CPU，专门去武汉等大佬动手，不容易哎！话说技术大神现在才高二就已经可以动手自己魔改软硬件了，不得了。

2月25号买了追风者 620PTG和几个风扇，因为追风者机箱大可以装很多风扇，我个人为了美观前面装满4个小的，过几天补图。一共花了1297元，来自[b]天猫：追风者旗舰店[/b]
[attach]34[/attach]

后来因为公司业务还有个人的事情，一直没来得及装机，今天3月15，把事情缕清了，最后14条内存条，一共11690，还是同一家店。

总计开销[b]25000[/b]，这个价格目前可能比较难弄到了，因为Q30G的CPU涨价了。不过老哥们发现了更低的成本，大概1.5万，这个等我部署完手头的原型机之后再进行对比。

]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Sat, 15 Mar 2025 12:25:02 +0000</pubDate>
    </item>
    <item>
      <title>[统计]Deepseek 671b q4以上部署数据</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=15</link>
      <description><![CDATA[该统计只记录Deepseek 671b q4（8专家）以上数据，所有数据均为实际测试而非理论值，有更详细文章会备注。查找比对时，请注意以下几个数据，方便分析差距：


1、是采用哪种部署模式（显存、CPU推理、Ktransformer）
2、使用哪类CPU
3、使用多少频率多少总量的内存
4、Ktansformer框架下使用的是什么显卡

因为论坛UI限制，请下载EXCEL表格自行搜索，这里只放概要（速度TPS=token/s）：


 [table=98%]
[tr][td=59]编号[/td][td=96]方案[/td][td=96][align=left]速度[/align][/td][td=96][align=left]闲时功耗[/align][/td][td=96][align=left]满载功耗[/align][/td][td=136][align=left]部署者[/align][/td][td=117][align=left]出处/详细[/align][/td][td=96][align=left]CPU[/align][/td][/tr]
[tr][td]1[/td][td]双路AMD[/td][td][align=left]3-4[/align][/td][td][align=left]60[/align][/td][td][align=left]260[/align][/td][td][align=left]Digital Spaceport[/align][/td][td][align=left][url=https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=14]点击[/url][/align][/td][td][align=left]7702[/align][/td][/tr]
[tr][td]2[/td][td]双路AMD[/td][td][align=left]4[/align][/td][td][align=left]120[/align][/td][td][align=left]550[/align][/td][td][align=left]超超[/align][/td][td]

[/td][td]9334qs[/td][/tr]
[tr][td]3[/td][td]双路INT[/td][td][align=left]7[/align][/td][td]

[/td][td]
[/td][td][align=left]混沌[/align][/td][td]

[/td][td]8551c[/td][/tr]
[/table]
]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Fri, 07 Mar 2025 01:21:17 +0000</pubDate>
    </item>
    <item>
      <title>[Digital Spaceport][AMD EPYC]两千美金成本，本地化运行671b-Q4</title>
      <link>https://bbs.deeplexicon.tech/forum.php?mod=viewthread&amp;tid=14</link>
      <description><![CDATA[[i=s] 本帖最后由 Ref 于 2025-3-7 09:26 编辑 [/i]

[align=left]文章作者：DigitalSpaceport([url=https://www.youtube.com/watch?v=Tq_cmN4j2yY&amp;t=2s]https://www.youtube.com/watch?v=Tq_cmN4j2yY&amp;t=2s[/url])[/align][align=left][b][color=red]原文[/color][/b][b][color=red]：Digital Spaceport[/color][/b][/align][align=left][b][color=red]译者：珠海宇扬翻译[/color][/b][/align][align=left][b][color=red]译文首发：太素阁[/color][/b][/align][align=left][b][color=red]转载请保留此简介[/color][/b][/align][align=left][b][color=red]
[/color][/b][/align][align=left][attach]5[/attach][b][color=red]
[/color][/b][/align]
[align=left][align=left][b]AIDeepseek 本地推理系统搭建教程[/b][/align][align=left]首先分享一个好消息：我从同一套AMD EPYC Rome基准系统中获得了非常稳定的推理性能表现，这台服务器始终是我们整个技术探索旅程的核心。最初选择的硬件配置至今依然表现卓越！如果你也拥有类似的系统，那么恭喜你，你可以完全在它上面运行完整的Deepseek R1的671b全量模型（Q4），速度大概在3.5TPS至4.25TPS之间（tokens per second）。这一点至关重要，因为蒸馏版模型与完整模型完全不同，其性能远低于完整模型，许多其他模型也能轻松胜过它们。要想让该模型真正展现其能力，那便需要运行完整模型，再搭配上16K或更大的上下文窗口。这样的资源投入绝对物有所值。不过由于该模型仅凭CPU就能获得不错的运行效能，这意味着你可以同时并行运行其他小型模型（例如视觉模型）。需要特别说明的是，除非配备顶级显卡，否则该模型无法仅依靠GPU显存独立完整运行。接下来我会展示如何让其在更大众化的配置下也能工作。这并不算“简单”，但如果你喜欢动手折腾，就会觉得乐趣多多。[/align]
[align=left][b]2024年2月1日新增信息（[color=#ff0000]译者注：这里可能是作者写错年份了[/color]）：[/b]
空闲功耗：[b]60瓦[/b]（远低于期待，断开GPU）        
满载功耗：[b]260瓦[/b]                                          
当前运行内存速度：2400MHz（若提升至3200MHz很可能对性能有显著影响）[/align]
[align=left][url=https://youtu.be/Tq_cmN4j2yY]https://youtu.be/Tq_cmN4j2yY[/url][/align]
[align=left][b]本地AICPU计算硬件指南[/b][/align][align=left]如果你之前按照我发布的四卡RTX 3090配置指南搭建了系统，那么恭喜你——AMD EPYC 7702这颗CPU依然实力不俗。本文中将推荐一颗更好的CPU，价位与7702一致，而性能会好上不少，不过本文展示的结果仍是基于我机器中这颗7702算出来的。主板方面，MZ32-AR0仍是入门优选[b]，因为它以极低的价格提供了多达 16 个能跑满3200MHz的 DIMM 内存插槽，让你轻松上到 512GB 或 1TB 的系统内存。 目前，我使用的是2400MHz DDR4内存条，若改用3200MHz DDR4 ECC内存条预计会带来额外的性能提升。内存容量方面：16x32GB内存条 → 512GB;16x64GB内存条 → 1TB。切忌混用LRDIMM与RDIMM内存类型！[/b][/align]
[align=left][b]本地AI计算机组装配置清单[/b][/align][list]

[*][url=https://geni.us/GPU_Rack_Frame]机架框架[/url]：55美元
[*][url=https://geni.us/mz32-ar0_motherboard]MZ32-AR0主板： 500美元[/url]
[*][url=https://geni.us/Corsair_Elite_Cappelix]CPU     水冷散热（420mm）Corsair h170i elite capellix xt[/url]-  170 美元
[*]用于 AMD EPYC 处理器的水冷头固定支架
[*]64 核 [url=https://geni.us/EPYC_7702]AMD EPYC 7702[/url]-      650 美元或 [url=https://geni.us/EPYC_7V13_CPU]AMD EPYC 7V13[/url] -     599 美元或 [url=https://geni.us/7C13_EPYC_CPU]AMD EPYC 7C13[/url] - 735 美元
[*] [url=https://geni.us/512GB_DDR4_RAM]512GB 2400 ECC 内存[/url] -      400 美元
[*][url=https://geni.us/Samsung_980_PRO]1TB     NVMe Samsung 980 Pro[/url] -  75 美元
[*][url=https://geni.us/850W_PSU]850W 电源[/url]     -  80 美元（仅     CPU 推理时够用；若要插显卡，建议一开始就买 1500W 或 1600W 电源）
[/list]
[align=left]（[i]价格更新于2025年1月29日[/i]）
[b][i]总体估价：约2000美元[/i][/b][i]（配置 EPYC 7702 + 512GB 2400MHz内存） 如果想性能更佳，我的首选是换用 7C13 或 7V13 处理器而非使用更高频的内存，次选是把内存加大到768GB，最后才是换用3200MHz的内存。若是选择顶配方案（7C13/7V13 + 1TB DDR4 2400MHz内存），总价约为2500美元。[/i][/align]
[align=left][b]设备机组机架组装说明[/b][/align][align=left]组装相关步骤与之前发布的视频教程一致，可以参考操作（未包含GPU与扩展卡部分）。若你后续打算加装GPU，强烈建议初期就选用1500W或1600W电源。其余配置和视频教程一样（即使加装GPU和和扩展卡）。点击以下链接查看视频。提示：忽略视频中涉及GPU的部分，其余步骤完全相同。[/align]
[align=left][url=https://youtu.be/JN4EhaM7vyw]https://youtu.be/JN4EhaM7vyw[/url][/align]

[align=left]另外，建议制作一个由多个小型风扇组成的散热墙（用尼龙扎带固定），直接对内存条进行强制风冷。虽然内存不会熔毁，但持续高负载数据传输时会产生热降频，导致性能衰减。我个人使用的是4组80mm风扇，构成小型散热器。[/align]
[align=left][attach]8[/attach]
[/align]
[align=left][b]主板升级指南[/b][/align][align=left]如若选择搭配 AMD EPYC 7V13 处理器，最好直接购买 MZ32-AR0 主板的 V3 版本，而不是购买 V1 版本后再进行升级。V1 版本可能不支持新的 Milan 处理器。若购买了V1版本，可能还需要通过V2版的CPU进行初始升级。 我不清楚具体过程如何，但大致流程应该差不多就是这样。  要想将V1版本的主板升级至V3版本，根据我的经验，你可以通过 BIOS 更新将 V1 版本的主板直接升级到最新版本，然后获取一个 V3 版本的早期 BIOS 更新并运行它。之后，你就可以从该页面更新到最新的 V3 版本 BIOS。目前（截止撰写本文），[url=https://www.gigabyte.com/Enterprise/Server-Motherboard/MZ32-AR0-rev-3x#Support-Bios]主板最新的 BIOS 版本是 M23_R40。[/url][/align]
[align=left][b]本地AI自托管软件配置[/b][/align][align=left]相较于之前的教程，此部分操作将变得更加棘手。是的，你可以在裸机Proxmox环境中部署Ollama。但是这样做好吗？个人而言，我并不建议。这并非明智之举。其实现在你有两种选择，我向将你展示其中一种方案。关于另一种方案[b]，我需要[/b]先对其进行测试并查看性能影响，之后才会推荐它。这种方案的做法是在独立的LXC或虚拟机（VM）中运行Ollama。[b]如果你有一直遵循我往期的LXC与Docker的配置指南，就请按照此方法操作。但现阶段我建议你安装在虚拟机中。[/b]除此之外，我正埋头研发一种更为统一的方案，将相关技术整合到AI服务器中，实现AI本地化自托管功能，但这需要时间。[/align]
[align=left][b]想要于裸机服务器或Proxmox 虚拟机 上安装我们的 Ubuntu 24？[/b][/align][align=left]基本上，如果你想要精简并搭建全新环境，应该直接在裸机上安装 Ubuntu 24.04 服务器版。或者，你也可以按照之前的 Proxmox 指南 进行设置。你必须自己拿定主意，并承担结果。你也可安装桌面环境，不过这并非必须，我也不会演示安装过程。因为是在服务器上运行服务，所以大胆使用命令行界面（CLI）吧！[/align]
[align=left][b]设置服务器主板BMC MZ32-AR0[/b][/align][align=left]将 MZ32-AR0 以太网和 BMC端口连接到本地网络。如果你有像opnsense或pfsense这样的防火墙路由器，你可以检查ARP表，找到你的端口，获取该 IP 地址。在我的实例中，IP地址为 [url=https://192.168.1.XX]https://192.168.1.XX[/url]，当我登录时，它会立即要求输入用户名和密码。默认用户名是 admin。密码应该就在你的主板的MZ32-AR0标签下方的贴纸上。下面是我拍的照片。它是带有条形码的标签。我记得不是很清楚，但大致是去掉前面的 3/C/ 部分，剩下的 6 个或 11个字符就是初始密码。当你最终登录后，进入[/align][align=left]“主页 &gt; 设置 &gt; 网络 &gt; 网络 IP 设置”，[/align]
[align=left]为你的主板设置一个静态IP。若需使用本地 DNS 服务，请同时进行本地 DNS 服务器与NTP 服务器配置。后续你将经常登录此界面，所以可以将其保存为书签或做其他标记。[/align]
[align=left][attach]9[/attach]
[/align]
[align=left]下一步，进入侧边栏上的远程控制。它将带你进入一个新页面，其中有 HTML5 查看器选项。在继续下一步骤之前，我建议通过有线网络连接执行此操作，因为我们将通过网络发送一个较大的 ISO 文件，用于稍后安装 Ubuntu 24.04。从Ubuntu的下载页面获取 [url=https://ubuntu.com/download/server]ubuntu 24  的服务器版本的ISO文件[/url]。该文件大约有2.5GB。将其连接到右上角的 HTML5 查看器中。[/align]

[align=left][attach]11[/attach]
[/align][/align]

[align=left][align=left]单击启动后，ISO文件加载过程会稍微加速起来。如果服务器尚未开启，现在就要打开它。一旦服务器启动并运行起来，界面上的KB数值会开始逐渐增加。点击&quot;屏幕&quot;部分，等待技嘉（Gigabyte）品牌logo出现。按下 DEL 键进入BIOS。把所有设置恢复成默认值，然后保存并退出。待系统重启后，再次进入BIOS界面，现在我们要开始更改一些设置。首先，指定你的启动驱动器。你可保持UEFI模式，这无关紧要。如若遇到硬盘问题，传统模式（Legacy mode）能减少一些麻烦。[/align]
[align=left]以下是你需要查找并更改的设置：[/align][list]

[*]NUMA节点每插槽配置(NPS) → 设为1
[*]核心复合体模组(CCD) → 设为自动
[*]同步多线程(SMT) → 关闭
[*]安全虚拟化模式(SVM) → 关闭（若在Proxmox/虚拟化环境中运行可开启，会有轻微性能损耗）
[*]输入输出内存管理单元(IOMMU) → 关闭 （若在Proxmox/虚拟化环境中运行可开启，会有轻微性能损耗
[*]热设计功耗配置(cTDP) → 调整为200（适用于EPYC 7702处理器）
[*]确定性控制 → 手动模式，随后将滑块调至&quot;性能&quot;
[*]快速电源策略 → 选择&quot;性能&quot;
[*]最大加速频率(BoostFMax) → 手动模式
[*]最大加速频率值 → 设为3400MHz（适用于EPYC 7702）
[/list]
[align=left]完成上述设置后保存并再次重启。当出现启动画面时，根据屏幕底部提示按F12/F11/F10（我忘记要按哪一个键了，启动Logo页面底部会显示）进入BIOS启动菜单。选择&quot;AMI虚拟光驱&quot;选项。若设备已连接网线，应该很快就能进入Ubuntu启动界面。继续进行安装：设置一个你不会轻易遗忘的用户名和密码，勾选&quot;设置SSH服务器&quot;选项，以便后续远程登录访问。安装成功后，系统将重启，需按回车键确认继续。重启完成后，应该会回到一个终端界面，提示你输入用户信息：用户名和密码。输入以下命令使得配置生效：[/align]
[align=left]ip a[/align][align=left]记录下显示的IP地址。现在可回到桌面上本地终端软件（Windows/MacOS/Linux），关闭HTML5远程查看器。在本地终端窗口，替换为你的实际信息，输入：[/align]
[align=left]ssh 用户名@IP地址[/align]
[align=left][b]安装其他软件包[/b][/align][align=left]有一组命令可供运行。我省略了与GPU 相关的部分，但如果你的设备包含 NVIDIA GPU，你可在最后安装相应驱动。以下为命令行：[/align]
[align=left]sudo apt update &amp;&amp; sudo apt upgrade-y &amp;&amp; sudo apt install -y htop git glances nano lsof unzip[/align]
[align=left][b]设置静态IP地址[/b][/align][align=left]在命令行界面输入：[/align]
[align=left]sudo netplan generate[/align]
[align=left]然后，你可以通过以下命令编辑默认配置：[/align]
[align=left]sudo nano /etc/netplan/50-cloud-init.yaml[/align]
[align=left]它最初看起来会像这样。我们将编辑 eno1，即主板上的物理 RJ-45 网络接口。忽略我的 enp65s0np0，那是一张额外的网卡。[/align]
[align=left][attach]12[/attach]
[/align]
[align=left]使用方向键并键入，使其如同下图。为了方便起见，直接使用你当前的IP地址，以免过程复杂化。在本实例，我使用200作为我的静态IP，而我的路由器地址通常都是192.168.1.1，一个常见地址。[/align]
[align=left][attach]13[/attach]
[/align]
[align=left]现在，我们先得把这个网路配置方案给存下来，方法就是用CTRL-X键退出编辑，然后确认保存时按Y键。[/align][align=left]从编辑器回到终端后，输入以下命令使得配置生效：[/align]
[align=left]sudo netplan apply[/align]
[align=left]至此，你的网络已成功设置为静态IP。现在你可以重启系统，通过SSH再次登录以确保设置生效。[/align]
[align=left][b]安装Ollama[/b][/align][align=left]接下来我们通过以下命令部署Ollama服务[/align]
[align=left]curl -L[url=https://ollama.com/download/ollama-linux-amd64.tgz]https://ollama.com/download/ollama-linux-amd64.tgz[/url] -o ollama-linux-amd64.tgz[/align][align=left]sudo tar -C /usr-xzf ollama-linux-amd64.tgz[/align][align=left]sudo useradd -r-s /bin/false -U -m -d /usr/share/ollama ollama[/align][align=left]sudo usermod -a-G ollama $(whoami)[/align]
[align=left]上述命令将创建一个Ollama用户，并将Ollama安装到/usr/share/ollama文件夹中。默认情况下，模型将存放在/usr/share/ollama/.ollama/models/目录下。[/align]
[align=left][b]服务环境变量配置[/b][/align][align=left]现在我们需要设置一些在 [b]ollama[/b] 启动时运行的环境变量。此项操作对于解决并行问题至关重要。[/align]
[align=left]sudo nano/etc/systemd/system/ollama.service[/align]
[align=left]同时，我们将添加额外的环境变量配置行。下方的列表列出了所有变量。我们不会全部都使用，这里只是提供一个快速参考。[/align][align=left]
环境变量:
-OLLAMA_DEBUG： 调试模式，显示额外的调试信息，例如OLLAMA_DEBUG=1
-OLLAMA_HOST 服务器IP地址 (默认地址为 127.0.0.1:11434)
-OLLAMA_KEEP_ALIVE ：模型在内存中保持加载时长（默认5分钟） -OLLAMA_MAX_LOADED_MODELS ：每个 GPU 上可加载的最大模型数量
 -OLLAMA_MAX_QUEUE ：请求队列的最大长度
 -OLLAMA_MODELS： 模型目录路径
 -OLLAMA_NUM_PARALLEL：最大并行请求处理数
-OLLAMA_NOPRUNE：启动时，禁止清理模型blob
 -OLLAMA_ORIGINS： 允许访问、用逗号隔开的来源列表
 -OLLAMA_SCHED_SPREAD：始终在所有 GPU 上调度模型[/align][align=left]-OLLAMA_FLASH_ATTENTION：启用 Flash Attention 
-OLLAMA_KV_CACHE_TYPE：K/V 缓存的量化类型（默认是f16）
-OLLAMA_LLM_LIBRARY：设置LLM库，绕过系统的自动检测 
-OLLAMA_GPU_OVERHEAD：为每个 GPU 保留部分VRAM（以字节为单位）-
OLLAMA_LOAD_TIMEOUT：允许模型加载停滞多长时间后放弃（默认5分钟）[/align]
[align=left]以下是我设置完成后的示例。至于GPU相关变量，除非你有GPU，否则你[b]不需要（也不应该）[/b]输入任何GPU相关的变量。[/align]
[align=left][attach]15[/attach]
[/align]
[align=left]依然是按CNTRL-X 退出编辑，再按Y保存文件。这时你应该输入以下命令：[/align]
[align=left]sudo systemctl daemon-reload[/align][align=left]sudo systemctl start ollama[/align][align=left]nproc[/align]

[align=left]现在，各个变量设置得十分理想，nproc输出结果理应为64。若输出结果为128，你应禁用SMT再次操作。若输出结果为32或者96，你则需要检查NPS与CCD的设置。确认输出结果为64后，你就可以进行下一步了！[/align]
[align=left][b]下载Deepseek671b模型[/b][/align][align=left]现在，输入以下命令，下载ollama的Deepseek671b模型。模型将占用大约400GB的磁盘空间，希望你的NVMe存储设备性能吃得消。[/align]
[align=left]ollama pull deepseek-r1:671b[/align]
[align=left]下载过程需要一点时间，这期间不妨想想你的出站流量账单吧......[/align]
[align=left][b]安装OpenWEBUI[/b][/align][align=left]我们需要在docker或python环境中运行OpenWEBUI。此处我将演示如何在docker进行部署。注意：确保没有安装会造成冲突的垃圾软件。[/align]
[align=left]for pkg in docker.io docker-docdocker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-getremove $pkg; done[/align]
[align=left]安装Docker镜像库[/align]
[align=left]#添加Docker的官方GPG密钥：[/align][align=left]sudo apt-get update[/align][align=left]sudo apt-get install ca-certificates curl[/align][align=left]sudo install -m 0755 -d /etc/apt/keyrings[/align][align=left]sudo curl -fsSL[url=https://download.docker.com/linux/ubuntu/gpg]https://download.docker.com/linux/ubuntu/gpg[/url] -o /etc/apt/keyrings/docker.asc[/align][align=left]sudo chmod a+r /etc/apt/keyrings/docker.asc[/align]
[align=left]#将此镜像库添加到 Apt 源列表中：[/align][align=left]echo \[/align][align=left] &quot;deb [arch=$(dpkg --print-architecture)signed-by=/etc/apt/keyrings/docker.asc]https://download.docker.com/linux/ubuntu \[/align][align=left]  $(. /etc/os-release &amp;&amp; echo&quot;$VERSION_CODENAME&quot;) stable&quot; | \[/align][align=left]  sudo tee/etc/apt/sources.list.d/docker.list &gt; /dev/null[/align][align=left]sudo apt-get update[/align]
[align=left]接近尾声：安装 Docker[/align]
[align=left]sudo apt-get install docker-cedocker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y[/align]
[align=left]安装 Dockge以及 Docker 容器管理器Dockge[/align][align=left]在此实例中，Docker 和Dockge 的数据目录位于 /opt/dockge，它们提供了一个易于用户操作的界面。[/align]
[align=left]sudo mkdir -p /opt/stacks /opt/dockge[/align][align=left]cd /opt/dockge[/align][align=left]sudo curl[url=https://raw.githubusercontent.com/louislam/dockge/master/compose.yaml]https://raw.githubusercontent.co ... master/compose.yaml[/url] –output compose.yaml[/align][align=left]docker compose up -d[/align]
[align=left]现在，你可以进入 Docker 管理器来完成其余的步骤。如果你不知道 LXC 的 IP 地址，请在管理器的网络设置里查找。在找到的地址后附加 :5001，[/align][align=left]例如 [url=http://192.168.1.200:5001]http://192.168.1.200:5001[/url] 是我的地址。进行首次访问时，你需要设置用户名和密码。请把它们都记下来。现在，你可以开始为 OpenwebUI 创建你的 Docker 容器了。[/align][align=left]请将以下命令粘贴进你的 OpenwebUI 的 compose 文件里： [/align]

[align=left]version: “3.3”[/align][align=left]services:[/align][align=left] open-webui:[/align][align=left]   ports:[/align][align=left]     – 7000:8080[/align][align=left]   volumes:[/align][align=left]     – open-webui:/app/backend/data[/align][align=left]   container_name: open-webui[/align][align=left]   restart: always[/align][align=left]   image: ghcr.io/open-webui/open-webui:latest[/align][align=left]volumes:[/align][align=left] open-webui: {}[/align][align=left]networks:[/align][align=left] dockge_default:[/align][align=left]   external: true[/align]
[align=left]点击保存并运行。首次运行时，它会先下载镜像，后续你可以点击更新键轻松完成更新。管理器显示为运行状态后，查找IP后缀为7000的地址。在本例地址为[url=http://192.168.1.200:7000]http://192.168.1.200:7000[/url]。之后，系统会要求你设置登录凭证，请务必妥善保存。终于，我们离胜利只剩一步之遥了！呼！ [/align]
[align=left][b]将OpenWEBUI连接至Ollama[/b][/align]
[align=left]进入/admin/settings界面，通过点击&quot;+&quot;号将OpenWEBUI添加本地服务器，如下图所示。本例使用地址为192.168.1.200:11434，需替换为你设备实际的IP地址。连接成功后，屏幕会显示绿色弹窗&quot;成功连接&quot;。[/align]
[align=left][attach]16[/attach]
[/align]
[align=left][font=等线][size=10.5pt]点击Ollama管理图标，在你完成下载 Deepseek 的 LLM 模型后，它会出现在删除下拉菜单中。[/size][/font]
[/align][align=left][attach]17[/attach][font=等线][size=10.5pt]
[/size][/font][/align]
[align=left]恭喜你！离成功只差临门一脚了！不要着急离开设置界面，还剩最后几步！[/align]
[align=left][b]设置模型高级参数[/b][/align]
[align=left]点击界面的笔形图标，如下图所示。[/align]
[align=left][attach]18[/attach][/align]
[align=left]现在，你可以自由编辑高级参数。切记每次编辑后保存！[/align]
[align=left][attach]19[/attach][/align]
[align=left]如果你没有连接GPU，就把GPU设置为 0；
模型推理性能级别选择低效率（另外还有中等/高效，默认中等）；
上下文长度设为16364（一般16k即可适用，若需更高长度则需增加内存或GPU资源）；
系统任务线程数设为62（此处预留了一些空闲线程保证运行流畅性）；
启用mlock，可以防止内存分页到磁盘。[/align][align=left]其余参数可自行调试或参考模型卡配置。另外，想要获得160K上下文长度完整体验，内存配置要求2TB左右......且推理速度也会显著下降。[/align][align=left]进行任何参数编辑都要记得保存！[/align]
[align=left][b]设置用户偏好设置[/b][/align][align=left]你可以根据自己的喜好更新用户偏好设置，但请将用户登录活跃设置为 3 小时左右。设置完成后点击保存。[/align]
[align=left][attach]20[/attach][/align]
[align=left]看着有点怪，但这个确实是用户设置界面，之前的才是管理员设置界面。[/align]
[align=left][b]模型运行测试[/b][/align][align=left]天啊！终于走到了这一步！干得真棒，我真为你感到骄傲！现在，点击窗口左上角的“新聊天”框吧。Deepseek满血版671B模型已经就在那了。向它打个招呼吧。干得漂亮！[/align]
[align=left][b]基准测试Deepseek R1 671b 性能[/b][/align][align=left]终于，我们成功裸机部署了功能齐全的完整版Ollama+OpenWEBUI。我确信市场上还有其他优秀AI运行器，如llama.cpp，exo和vLLM，但需待我深入掌握后再分别出独立教程。最近，我成功完成Llama.cpp相关编译，基准测试和运行，结果也表现良好，也许我会优先上传其安装指南。Llama.cpp框架参数调节空间极大，潜力十足；而vLLM过于复杂，上手难度较大；exo虽简单，但每次启动后都会崩溃。总之，我还没空一一进行调试，但正如大家所说的......我们很快就会见面！[/align][/align]]]></description>In      <category>硬件软件</category>
      <author>Ref</author>
      <pubDate>Thu, 06 Mar 2025 08:45:46 +0000</pubDate>
    </item>
  </channel>
</rss>