瞧，自己用CPU+MEM硬跑LLM的好处又来了

HouseMD

能玩上最新的ds 3.1 , 还是685b的大模型。
外面租GPU来跑，那可就贵了，不太适合个人玩玩

pathdream

你有5090？狂赞

苍井吱

pathdream 写了： 2025年 8月 26日 19:28
你有5090？狂赞

5090才32GB显存。lz的得768GB

pathdream

苍井吱写了： 2025年 8月 26日 19:33
5090才32GB显存。lz的得768GB

太有钱太ai了

RobotII · 帖子由 **RobotII** » 2025年 8月 29日 18:40

苍井吱写了： 2025年 8月 26日 19:33
5090才32GB显存。lz的得768GB

同学是不跟踪local LLM 吧，这也太落后了。DeepSeek可以用多核CPU硬跑，根本不需要GPU。只要DRAM达到512G，就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考，Ebay上有HP Z840的老机子，价格便宜，有2个CPU，共36个Core.加上64X8共512GDDR4，也没多少钱（小于$1200）。再加一个16G以上显存的GPU，用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。

Mountainlion · 帖子由 **Mountainlion** » 2025年 8月 29日 18:50

硬跑满血DeepSeek有什么意义？

RobotII 写了： 2025年 8月 29日 18:40
同学是不跟踪local LLM 吧，这也太落后了。DeepSeek可以用多核CPU硬跑，根本不需要GPU。只要DRAM达到512G，就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考，Ebay上有HP Z840的老机子，价格便宜，有2个CPU，共36个Core.加上64X8共512GDDR4，也没多少钱（小于$1200）。再加一个16G以上显存的GPU，用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。

RobotII · 帖子由 **RobotII** » 2025年 8月 29日 19:16

大家用PC而不用Mainframe是为啥？

oxo · 帖子由 **oxo** » 2025年 8月 30日 20:10

RobotII 写了： 2025年 8月 29日 18:40
同学是不跟踪local LLM 吧，这也太落后了。DeepSeek可以用多核CPU硬跑，根本不需要GPU。只要DRAM达到512G，就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考，Ebay上有HP Z840的老机子，价格便宜，有2个CPU，共36个Core.加上64X8共512GDDR4，也没多少钱（小于$1200）。再加一个16G以上显存的GPU，用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。

能跑到多少T/S？我在普通硬件上跑qwen3 235b 超残版（IQ1，不到60G）可以有近6T/S，效果感觉还行。

ferrygao · 帖子由 **ferrygao** » 2025年 8月 30日 20:13

RobotII 写了： 2025年 8月 29日 18:40
同学是不跟踪local LLM 吧，这也太落后了。DeepSeek可以用多核CPU硬跑，根本不需要GPU。只要DRAM达到512G，就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考，Ebay上有HP Z840的老机子，价格便宜，有2个CPU，共36个Core.加上64X8共512GDDR4，也没多少钱（小于$1200）。再加一个16G以上显存的GPU，用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。

耗电如何比挖矿呢

苍井吱

ferrygao 写了： 2025年 8月 30日 20:13
耗电如何比挖矿呢

这不冬天来了吗

YouHi · 帖子由 **YouHi** » 2025年 8月 30日 23:20

楼主把配置说说吧

tiantian2000 · 帖子由 **tiantian2000** » 2025年 8月 30日 23:26

Mountainlion 写了： 2025年 8月 29日 18:50
硬跑满血DeepSeek有什么意义？

相当于洪波的自家枪械库，自娱自乐

ferrygao · 帖子由 **ferrygao** » 2025年 8月 31日 00:39

苍井吱写了： 2025年 8月 30日 23:18
这不冬天来了吗

且热且发烧

宇宙 · 帖子由宇宙 » 2025年 8月 31日 21:02

你去用api 一般不会给你最大的模型
简单问题后台给你换便宜的

Mountainlion 写了： 2025年 8月 29日 18:50
硬跑满血DeepSeek有什么意义？

RobotII · 帖子由 **RobotII** » 2025年 9月 2日 16:14

oxo 写了： 2025年 8月 30日 20:10
能跑到多少T/S？我在普通硬件上跑qwen3 235b 超残版（IQ1，不到60G）可以有近6T/S，效果感觉还行。

满血DeepSeek V3.1, Q4 版，380多G，可以跑到5TPS。

RobotII · 帖子由 **RobotII** » 2025年 9月 2日 16:21

Mountainlion 写了： 2025年 8月 29日 18:50
硬跑满血DeepSeek有什么意义？

满血（即使是1.58bits 的低精度版）比蒸馏后的小参数版要有更深的深度回答，小参数模型总给人以customer service 的感觉，而满血模型就像跟专家讨论。

RobotII · 帖子由 **RobotII** » 2025年 9月 2日 16:55

ferrygao 写了： 2025年 8月 30日 20:13
耗电如何比挖矿呢

全速答题时500瓦左右，待机小于100瓦。没挖过矿，不清楚。听说挖矿是24小时都在开着，做自己用的LLM，耗电应该是不必考虑的。

ferrygao · 帖子由 **ferrygao** » 2025年 9月 2日 17:04

RobotII 写了： 2025年 9月 2日 16:55
全速答题时500瓦左右，待机小于100瓦。没挖过矿，不清楚。听说挖矿是24小时都在开着，做自己用的LLM，耗电应该是不必考虑的。

24小时一年1000刀

oxo · 帖子由 **oxo** » 2025年 9月 2日 20:09

RobotII 写了： 2025年 9月 2日 16:14
满血DeepSeek V3.1, Q4 版，380多G，可以跑到5TPS。

5T/S不错了，基本可用。我现在的系统勉强可以塞下Q2的QWEN3 235B版本，context window 4096时5T/S多点，我把这个值调到7000多时4T/S多些，凑合。

oxo · 帖子由 **oxo** » 2025年 9月 2日 20:11

RobotII 写了： 2025年 9月 2日 16:21
满血（即使是1.58bits 的低精度版）比蒸馏后的小参数版要有更深的深度回答，小参数模型总给人以customer service 的感觉，而满血模型就像跟专家讨论。

是，蒸馏本质是背题，学到面子。

新未名空间

瞧，自己用CPU+MEM硬跑LLM的好处又来了

瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了

Re: 瞧，自己用CPU+MEM硬跑LLM的好处又来了