1赞

14回答

0收藏

[INTEL][双路768G][软件篇] Deepseek671b 个人部署记录

软件部署 软件部署 860 人阅读 | 14 人回复 | 2025-03-23

https://bbs.deeplexicon.tech/forum.php?mod=viewthread&tid=18

上一篇已经写完硬件安装,现在开始AI部署。

首先装完WIN11 专业工作站版,发现硬盘占用超大,原因是休眠的机制是把内存写进硬盘达到快速启动,因为我们768G内存太大,所以硬盘顶不住。
https://zhuanlan.zhihu.com/p/656558986


用管理员权限打开CMD,然后powercfg -h off 解决。

插满电源再测试一次。

19.png



5.3W,应该是平均就这个数了。
功耗看了一下,平均大概是307-340W左右。

找到主板CPU盖子,在电脑开机界面左下角找到BMC的IP位置,在浏览器登陆,然后输出账号admin和默认密码。
https://blog.csdn.net/GreapFruit_J/article/details/135684863


这里可以查看数据和修改设置,正常来说风扇不会停,如果要维持风扇长时间高速运转可以新设立一个风扇管理方案。

目前2T只有1.81T可以用,我的准备是WIN11分配600G,UBUNTU300G,AI900G。然后再补一个硬盘2T装虚拟机UBUNTU和AI。AI区硬盘用exFAT格式。一共测试以下几个AI:deepseek671b q4,gwen32b ,gemma 3 27B

https://zhuanlan.zhihu.com/p/29797829035


安装ollama 和 llama.cpp还有ktransformer (买了显卡再用)。
分享到:

回答|共 14 个

Ref

发表于 2025-3-24 09:21:23 | 显示全部楼层

本帖最后由 太素小编 于 2025-4-9 14:42 编辑

先安装UBUNTU

https://blog.csdn.net/qq_19253847/article/details/129197496
https://www.bilibili.com/video/BV1wo4y177Gk/

关于300G的分配,结合指导https://blog.csdn.net/hnu2012/article/details/79006923

我打算
/ 给85G
/home 210G
/boot 1G
/tmp 10G
/swap 8G

服务器上有些是用物理内存,所以可能未来要关闭swap
https://blog.csdn.net/u014644574/article/details/118671809

我个人倾向于关了休眠,不然要占用大量空间。
https://blog.csdn.net/w13707470416/article/details/145418881

安装完毕,更新到22.04.5 LTS。

由于要写记录,所以我装了思源笔记同步,如果有需求可以装语雀飞书之类的互通文件内容。

Ref

发表于 2025-3-24 16:48:58 | 显示全部楼层

由于现在AI和各种应用太多了,根本整理不过来。所以需要先从信息源开始整理。

我的准备是:

多RSS采集工具+双笔记同步+2+1系统(常规WIN11+UBUNTU22.04+WIN的虚拟机WM),用三个框架,ollama,llama.cpp还有kt(这个要买个显卡之后)。

RSS工具采用 qireader直接订阅+irreader自定义订阅+本地部署wewe-rss

大体积内容比较固定的,永久版思源笔记+免费云牛,灵活的文字和链接什么的用语雀

2+1系统,
WIN11专业工作站版
UBUNTU 22.04.5
WIN虚拟机

框架
ollama跑小型测试性能和反馈
llama.cpp跑671b
KTransformer专门跑671b R1测试速度上限

比较好的信息出处和源我会在未来进行分享,敬请留意置顶。

Ref

发表于 2025-3-25 09:11:10 | 显示全部楼层

本帖最后由 Ref 于 2025-3-27 08:58 编辑

3月25日:

这个WIN11真是太差了,一开始测试机子用WIN10没啥感觉,重装WIN11这速度惨不忍睹,干啥都是一顿一顿的。朋友提示要装个好显卡才能优化速度,算了3090还没到,先直接优化。

先按照
https://make-sense.tech/posts/how-to-speed-up-windows-11/

走一遍

再按照
https://www.bilibili.com/video/B ... 31b181f11b528137ed4

走一遍,注意视频中后部份我没有全部执行,浏览器还有文件夹那些设置,还有输代码那些我都没管,太麻烦而且不确定行不行。我们就搞搞电源啥的。

改完速度明显提升,虽然还是没有WIN10流畅。所以微软搞个升级系统还比原来差是什么逻辑?没事找事吗?

要改启动直接创建启动文件夹:按下Win + R键,打开运行窗口,输入“shell:startup”,然后点击“确定”。这将直接跳转到“启动”文件夹。

另外还要关闭自动更新。这玩意把我机器给搞重启之后死机了,纯坑。
https://blog.csdn.net/yusuhbdybxbdhj/article/details/134295439

Ref

发表于 2025-3-26 08:17:13 | 显示全部楼层

本帖最后由 Ref 于 2025-3-27 08:39 编辑

3月26日:

关于Docker,目前可以肯定的是WIN11 22H2 和WSL2 还有Docker49版本这三个肯定是不兼容的,我找了一晚上没找到问题出在哪里,但一直显示的参数错误,我综合评估应该是22H2版本和WSL2最新设置不兼容了,因为装里面所有的Linux系统都报错。而虚拟化的那些设置都做了还是不行。所以只能升级23H2。如果不行就24H2。

再一次,如果不是必须,还是不要在windows里搞linux,环境太复杂了,加上服务器开关机又慢,随便出个小错误就要排查几个钟。

我在油管上找到一个指导,https://www.youtube.com/watch?v=RY_I7giG5-s
http://ithaoge.cn/win11_download.html?fromMid=634 下载


经测试,腾讯云部署docker比较方便(阿里云应该差不多),有兴趣可以直接在云上部署(假如想用windows系统又不想频繁切换)
腾讯云分两类,一类是他直接给你Docker容器镜像,这种不需要部署,进去直接完成了,一种是已经有

先登录主机
https://cloud.tencent.com/document/product/213/5436

然后搭建
https://cloud.tencent.com/document/product/213/46000
注意要根据自己主机用的什么系统选择对应的命令

然后按照教程
https://www.wangjinhai.com/social/tencent-cloud-wewe-rss.html

或者
https://cloud.tencent.com/developer/article/2434485

https://cloud.tencent.com/developer/article/2422266
这个方法最简约。

更新:宝塔Linux也可以直接安装docker使用,不过我不会用。~

关于WSL2的具体设置看这里
https://blog.gazer.win/essay/wsl ... 639#google_vignette
https://blog.csdn.net/qq_44859843/article/details/139008248
https://zhuanlan.zhihu.com/p/663858293

升到24H2还是报错,参数错误,但是具体什么参数错误又不说,完全没办法处理。
真的让人无语,wsl1可以用,但是wsl2一直出错。

综合评估,问题大概率是DNS设置上。如果不开代理没办法下载,如果开了代理没办法安装。无语。
极智开发 | win11+wsl2+docker+vscode开发环境构建 - 知乎
Win11安装wsl wsl2 - 开宝特攻 - 博客园

有兴趣的可以看这两个。
248f02d5aed04fd53897eb532f639f76.png





Ref

发表于 2025-3-27 08:59:42 | 显示全部楼层

本帖最后由 Ref 于 2025-3-27 10:30 编辑

3月27号:

处理完docker问题之后,重新设置,24H2明显比23H2和22H2快,23H2比22H2略快一丢丢。但是总的来说还是没WIN10流畅。


打算再装一个RSSHub方便查找资料
https://docs.rsshub.app/zh/deploy/
如果部署反馈失败再重复输入docker-compose up -d 几次,
不过我刚才发现了Follow,是同一个作者做的,感觉不太需要专门部署一个本地的。
注意如果装了配套的rsshub-radar插件,打开B站是很卡的。


先安装ollama
Windows的相关教程:
https://www.bilibili.com/video/BV11JNce2E2d/

记得修改安装位置,不然R1太大了。
Ollama模型文件默认存储位置与更改方法





Ref

发表于 2025-3-28 08:26:35 | 显示全部楼层

3月28号:
下载671b时候,经常会出错中断,这对于我的挂机通宵下载影响很大,本来以为一晚上可以下完,结果早上过来一看才下了100G

目前这个671b的q4是量化版,实际上表现肯定不如满配的q8和16,但是后者700G和1.3T的体积太夸张了,加上不上KT框架3万内主机根本不可能运作。所以我们还是先用q4测试。今天争取能下载完。

Ref

发表于 2025-3-29 18:55:25 | 显示全部楼层

本帖最后由 Ref 于 2025-3-29 23:54 编辑

3月29日:


下载安装完了Q4版,但是在运行中发现不少问题。
1、速出速度太慢,根据其他老哥的反馈,基本没有低于4的,但是我这个只有1-2,属实很慢。
1-2token/s 大概是什么速度?大概就是每秒蹦2个字,这种是比较难受的。
比我之前翻译的2000美金部署速度还慢,这是无法接受的。毕竟贵不少。
1.png


2、逻辑思考的速度很慢,我问了一句欲买桂花同载酒,分析花了快7分钟。
2.png


看网上设置是要把numa关闭,我试试。


重新测试机子感觉没什么问题,内存测试也没错误出现。到底为啥这么慢。
3-test.png


Ref

发表于 2025-3-30 21:04:05 | 显示全部楼层

3月30号:

找了很多文章和测试视频,总结出以下结论:

1、windows无论怎么配置,用内存方案跑都有损耗,ddr4和ddr5在这个损耗下如果不特别优化,差距几乎没有(都不会超过4)。用ollama跑比用llama.cpp跑要再差一些。所以你能找到的这个方案无论CPU和内存多强,都是2-4这个区间。而且内存利用率不高(大概400-450G)。运行 671b的系统检测是最低约384G,显卡+内存最好是512G以上。所以必须要精细微调一下;

2、最稳妥是用KTransformer方案,买一张显卡保证速度,并且在框架下CPU和内存的实力会发挥的比较完整;

3、如果必须要用Windows或者很少用linux,那么只能凑洋垃圾版本,尽可能省钱,在没有KT或者大显卡(至少200G)的情况下,CPU和内存强一档的提升可以忽略不计。(即使是2变成3提升50%,这个基数太小也没用。)内存方案是普通显卡方案价格的1/10左右,而洋垃圾是内存方案的1/5左右甚至更低。这个我会专门整理一下。

4月第一周集中精力测试llama.cpp下的情况。

Ref

发表于 2025-4-9 20:03:19 | 显示全部楼层

4月9号:
遇到了比较多意料之外的事情,暂停了几天,拿来测试的机子突然开不了,一查硬盘全部坏道,公司的事情耽误了一下,为了及时更新情况,我会收集其他人的教学视频提前放进来,给大家参考。同时继续更新部署进展。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

344 积分
36 主题