能玩上最新的ds 3.1 , 还是685b的大模型。
外面租GPU来跑,那可就贵了,不太适合个人玩玩
瞧,自己用CPU+MEM硬跑LLM的好处又来了
版主: Jack12345
Re: 瞧,自己用CPU+MEM硬跑LLM的好处又来了
同学是不跟踪local LLM 吧,这也太落后了。DeepSeek可以用多核CPU硬跑,根本不需要GPU。 只要DRAM达到512G, 就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考,Ebay上有HP Z840的老机子,价格便宜,有2个CPU,共36个Core.加上64X8共512GDDR4,也没多少钱(小于$1200)。再加一个16G以上显存的GPU,用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。
Re: 瞧,自己用CPU+MEM硬跑LLM的好处又来了
硬跑满血DeepSeek有什么意义?
RobotII 写了: 2025年 8月 29日 18:40同学是不跟踪local LLM 吧,这也太落后了。DeepSeek可以用多核CPU硬跑,根本不需要GPU。 只要DRAM达到512G, 就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考,Ebay上有HP Z840的老机子,价格便宜,有2个CPU,共36个Core.加上64X8共512GDDR4,也没多少钱(小于$1200)。再加一个16G以上显存的GPU,用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。
Re: 瞧,自己用CPU+MEM硬跑LLM的好处又来了
RobotII 写了: 2025年 8月 29日 18:40同学是不跟踪local LLM 吧,这也太落后了。DeepSeek可以用多核CPU硬跑,根本不需要GPU。 只要DRAM达到512G, 就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考,Ebay上有HP Z840的老机子,价格便宜,有2个CPU,共36个Core.加上64X8共512GDDR4,也没多少钱(小于$1200)。再加一个16G以上显存的GPU,用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。
能跑到多少T/S? 我在普通硬件上跑qwen3 235b 超残版(IQ1, 不到60G)可以有近6T/S,效果感觉还行。
Re: 瞧,自己用CPU+MEM硬跑LLM的好处又来了
RobotII 写了: 2025年 8月 29日 18:40同学是不跟踪local LLM 吧,这也太落后了。DeepSeek可以用多核CPU硬跑,根本不需要GPU。 只要DRAM达到512G, 就可以硬跑DeepSeek V3.1 Q4 满血版本。给个参考,Ebay上有HP Z840的老机子,价格便宜,有2个CPU,共36个Core.加上64X8共512GDDR4,也没多少钱(小于$1200)。再加一个16G以上显存的GPU,用Github 上国人的fastLLM transformer。就可以硬跑满血DeepSeek了。这个比租服务器爽多了。现在知道为啥中国AI要强撼老美了吧。
耗电如何 比挖矿呢
Re: 瞧,自己用CPU+MEM硬跑LLM的好处又来了
满血(即使是1.58bits 的低精度版)比蒸馏后的小参数版要有更深的深度回答,小参数模型总给人以customer service 的感觉,而满血模型就像跟专家讨论。
Re: 瞧,自己用CPU+MEM硬跑LLM的好处又来了
5T/S不错了,基本可用。我现在的系统勉强可以塞下Q2的QWEN3 235B版本,context window 4096时5T/S多点,我把这个值调到7000多时4T/S多些,凑合。
Re: 瞧,自己用CPU+MEM硬跑LLM的好处又来了
RobotII 写了: 2025年 9月 2日 16:21满血(即使是1.58bits 的低精度版)比蒸馏后的小参数版要有更深的深度回答,小参数模型总给人以customer service 的感觉,而满血模型就像跟专家讨论。
是,蒸馏本质是背题,学到面子。